3章　アラート、オンコール、インシデント管理

作成日: 2024/7/9

最終更新日: 2024/7/15

#『入門_監視』読書メモ

「監視とは、あるシステムやそのシステムのコンポーネントの振る舞いや出力を観察しチェックし続ける行為である。」

アラートは、この目的を達成するための1つの方法でしかない

素晴らしいアラートは、見た目よりも難しい

この章では、より良いアラートを作るためのヒント、オンコールの辛さと苦しさ、インシデント管理と障害の振り返りを取り上げる

3.1 どうしたらアラートをよくできるか

アラートは、コンテキストによっての2つの意味で使われる。

①誰かを叩き起こすためのアラート

緊急の対応が必要、対応しないとシステムダウンしてします

電話、テキストメッセージ、アラームなど

e.g. 全Webサーバーがダウンした、メインサイトへの疎通が取れない...

②参考情報 (FYI) としてのアラート

すぐに対応する必要はない

アラートがきたことは誰かが確認すべき

e.g. 夜間バックアップが失敗した

後者のアラートは事実上アラートではなく、単なるメッセージ。

ここ (本) では、前者について取り上げる。

アラートは、アラートを受け取った人に緊急性があり、すぐに対応する必要があることを認識させるためのもの。

それ以外の情報は、ログ、社内のチャットルームのメッセージ、チケットの自動生成などの形式になる。

→ なるほど、「社内のチャットルームのメッセージ」にアラートを送っているが、「傾向を知る」ような使い方しちゃってるのだめそう？だなあ... と思っていたけど、「社内のチャットルームのメッセージ」に送っているので、「②参考情報 (FYI) としてのアラート」と捉えて、それはそれで良さそうだな。

良いアラートの仕組みを作る6つの方法:

アラートにメールを使うのをやめよう

手順書を書こう

固定の閾値を決めることだけが方法ではない

アラートを削除し、チューニングしよう

メンテナンス期間を使おう

まずは自動復旧を試そう

3.1.1 アラートにメールを使うのをやめよう

メールは誰かを叩き起こすためのものではないし、そのために使おうと思うべきものでもない。

メールでアラートを送るのは、受け取る人がうるさくて最もうんざりしてしまう方法。

アラート疲れの原因になる。

アラートの使い道:

すぐに応答かアクションが必要なアラート

SMS、PagerDuty などのページャーに送る

この本の定義でいう本来のアラート

注意が必要だがすぐにアクションは必要ないアラート

社内のチャットルームに送る

→ これだこれだ

履歴や診断のために保存しておくアラート

ログファイルに送る

→ うん、これもやってるな

アラートのログを取る:

アラートのログを保存しておいて、後でレポートを送れるようにしておくのは重要

→ 「アラートのログ」って？ログファイルに送った「履歴や診断のために保存しておくアラート」のこと？

アプリケーションやサービスのどの部分でトラブルが多く、どこに改善の焦点を合わせればよいのか分かる

→ ほしい。具体的にどんなレポートになるんだろう？

SLAをレポートするのにも役立つ

3.1.2 手順書を書こう

手順書 (runbook) は、アラートが来た時にすばやく自分の進むべき方向を示す素晴らしい方法。

環境が複雑になって来るとチームのだれもが各システムのことを知っているわけではなくなる。

知識を広めるよい方法になる。

よい手順書とは、特定のサービルについて以下のような質問に答えるように書かれたもの:

これは何のサービスで、何をするものか

誰が責任者であるか

どんな依存性を持っているか

インフラの構成はどのようなものか

どんなメトリクスやログを送っていて、それらはどういう意味なのか

どんなアラートが設定されていて、その理由は何なのか

→ あああ、これはあると/あったらすっごく助かる/助かっただろうなあ... 自分が開発に入ってなくて保守運用から入ると、本当にわからないからなあ... アラートあがって初めて「そんな機能あったんですか、お初にお目にかかります」みたいになる

各アラートには、対象サービスの手順書へのリンクを入れましょう

何が起こっているか

アラートがどんな意味か

修復の手順

→ これはやりたい。が、手順通りに解決していくようなアラート、何かあったかなあ... 我々のシステムは、まだそこまで定型化していないような...

よいことがたくさんある一方で、手順書は使い方を間違う恐れもある

アラートに対応する修復手順がコピーアンドペーストでできるくらいにシンプルなコマンドなら、問題を修復して解決するまでを自動化して、アラートを完全に削除すべき

手順書は、何らかの問題を解決するのに、人間の判断と診断が必要な時のためのもの

→ 本当にそうだなあ。アラートに限らず、そうしたいよ。そうしたいけど、工数がとれないときもある。けど全面的にそうしたい。とても賛成。

→ ちなみに、付録Aに手順書の例がついている。読んだところ、我々のプロジェクトでも、それぞれページは独立しているものの、書いている項目まあまああった。項目の内容は各ページへのリンクで良いので、1ページにまとめるのも良さそうだ。まずそこを見る、のような立ち位置の。

「アラート」の、「アラートがどんな時に発報されるか」は書いているけれど、「原因として考えられること」「xxx か ooo に問題がないか確認してください」は書いていないので、書きたい。

3.1.3 固定の閾値を決めることだけが方法ではない

アラートの基準に固定の閾値を決めるのは間違い

警告、致命的といった状態がどんな状況でも当てはまるわけではない

e.g. ディスク空き容量が10%以下

ディスク使用量が11%から80%まで急激に増えるケースを見逃してしまう

本当に知らせてほしいのはこういうケース

固定の閾値だとアラートが送られない

-> 「一晩でディスク使用量が50%増加」をアラートする

変化量、グラフの傾きを使う

移動平均、信頼区間、標準偏差などある程度の統計情報を使う

3.1.4 アラートを削除し、チューニングしよう

「アラート疲れ」を引き起こす、監視システムを信用しなくなる、無視してしまうようになるのは良くない

対策は、アラートの量を減らす、アラートのノイズを減らす

減らす方法

1. 誰かがアクションする必要がある状態か？

2. 1ヶ月のアラート履歴を見て、監視の内容をより正確にするようデザインし直す

どんなアラートがあるか

どんなアクションをとったか

各アラートの影響はどうだったか

削除してしまえるアラートはないか

3. アラートを削除するために、どんな自動化の仕組みが作れるか

3.1.5 メンテナンス期間を使おう

何らかの作業をする必要があり、その作業を実施するとアラートがあがることがあらかじめわかっている場合は、アラートを止めておく (アラートをメンテナンス期間に入れる)

ただし、止め過ぎ注意

知らなかった依存性に気づけたり、メンテナンス作業が意図しない影響を及ぼしていることを知ったりできるので、あんまり広範囲に止め過ぎないように

3.1.6 まずは自動復旧を試そう

アラートに対する代表的なアクションが、基地でかつ用意されたドキュメントの手順に沿って対応するだけなら、コンピューターにやらせる == 自動復旧

→ ECS のターゲット追跡スケーリングポリシーなどそうだなあ

今ECSサービスのCPUとメモリのアラートも入れているけれど、何だったらそっちはいらないのかも...

ECS のターゲット追跡スケーリングポリシーで、CPUとメモリでオートスケールアウト/インを入れているので

タスク数の増減のほうをアラート？

でもスケジュールされたスケーリングも設定してたらどうなるんでしょうね？

いやこっちもアラート来ていいのかな..

というか、Mackerelの監視ルールの種類もっとたくさんあるのに、使いこなせてない

高度な監視 > 式監視、ロール内異常検知など、あとダウンタイムもあったんだな

ログ監視もある

これもなんかに使えそう Amazon EventBridgeにアラートを通知する

今はAWSインテグレーションで使っているが、コンテナを監視するもやりたい

標準化された復旧手順をコードとして実装して、人間に通知する代わりに監視システムにそれを実行させる

自動復旧によって問題が解決できないときに、アラートを送る

3.2 オンコール

オンコールとは ... 何か問題が起きたという呼び出しに答えられるようにしている担当のこと

夜中にコンピューターがおかしいな動作をしないようにはできないが、その正で必要ないのに叩き起こされることがないようにはできる

3.2.1 誤報を修正する

100%成果なアラートを実現するのは非常に難しい、無理だけれども、誤報をかなりの量まで減らすことはできる

オンコールの人が、

前日に送られたすべてのアラート一覧を作る

改善、削除する

毎回繰り返す

3.2.2 無用の場当たり的対応を減らす

「監視自体は何も修復してくれません。何かが壊れたら、あなたがそれを直す必要があります。」

場当たり的対応をやめるためには、その基礎にあるシステムを改善するのに時間を使おう。

→ すごく正論なんだけど、予算の都合で、問題も解決方法もわかってるのに改修させてもらえない場合もあり... (泣)

海外は知らないけれど、日本企業では、保守運用をなるべく低コストで済ませたい → 改修する費用出さない → 今いる保守運用メンバーのマンパワーでどうにかして、というケースがある

この習慣を身につける2つの効果的な戦略

オンコールシフト中、場当たり的対応をしていない時間は、システムの回復力や安定性に対して取り組むのをオンコール担当の役割にする。

前週のオンコールの際に収集した情報を元に、次の週のスプリント計画やチーム会議の際にシステムの回復性や安定性について取り上げる計画を立てる

→ これ良さそうだな、レトロで振り返る → スプリントプランニングで計画する、ちょこちょこ作業日でちょっとやる、とか

3.2.3 上手にオンコールローテーションを組む

常にオンコール担当でいるのは、人を燃え尽きさせる最善の方法

オンコールはローテーションすべし